Data Integration against Multiple Evolving Autonomous Schemata Inhaltsangabe Forschung Im Gebiet Der Datenintegration Hat U.a. Richtungen Wie Föderierte Und Multidatenbanken, Mediation, Data Warehousing, Global Information Systems

نویسندگان

  • Robert Trappl
  • Paolo Petta
  • Christoph Koch
چکیده

Research in the area of data integration has resulted in approaches such as federated and multidatabases, mediation, data warehousing, global information systems, and the model management/schema matching approach. Architecturally, approaches can be categorized into those that integrate against a single global schema and those that do not, while on the level of inter-schema constraints, most work can be classified either as so-called global-as-view or as local-as-view integration. These approaches differ widely in their strengths and weaknesses. Federated databases have been found applicable in environments in which several autonomous information systems coexist – each with their individual schemata – and need to share data. However, this approach does not provide sufficient support for dealing with change of schemata and requirements. Other approaches to data integration which are centered around a single “global” integration schema, on the other hand, cannot handle design autonomy of information systems. Under evolution, this type of autonomy eventually leads to schemata between which neither the global-as-view nor the local-as-view approaches to source integration can be used to express the inter-schema semantics. In this thesis, this issue is addressed with a novel approach to data integration which combines techniques from model management, mediation, and local-asview integration. It allows for the design of inter-schema mappings that are more robust when change occurs. The work has been motivated by the requirements of large scientific collaborations in high-energy physics, as encountered by the author during his stay at CERN. The approach presented here is based on two foundations. The first is query rewriting with very expressive symmetric inter-schema constraints, called conjunctive inclusion dependencies (cind’s). These are containment relationships between conjunctive queries. We address a very general form of the source integration problem, in which several schemata may coexist, each of them containing a number of purely logical as well as a number of source entities. For the source entities, the information system that belongs to the schema holds data, while the logical entities are meant to allow schema entities from other information systems to be integrated against. The query rewriting problem now aims at rewriting a query over (possibly) both source and logical schema entities of one schema into source entities only, which may be part of any of the schemata known. Under the classical logical semantics, and given a conjunctive input query, we address the problem of finding maximally contained positive rewritings under a set of cind’s. Such rewritten queries can then be optimized and efficiently answered using classical distributed database techniques. For the purpose of data integration and the sake of computability, we require the dependency graph of a set of cind’s to be acyclic with respect to inclusion direction. Regarding the query rewriting problem, we first present semantics and main theoretical properties. Subsequently, algorithms and optimizations based on tech-

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Medieninformatik in Forschung, Lehre und Praxis

Medieninformatik ist seit fast 20 Jahren ein aufsteigendes Teilgebiet der Informatik in Lehre und Forschung. Es zeichnet sich durch hohe Interdisziplinarität aus und stützt sich neben der Informatik vor allem auf Gebiete wie Medientechnik, Medienwissenschaften, Psychologie und Design, aber auch auf Wirtschaft und diverse Anwendungsfelder. Die fachliche Vielfalt und Komplexität sowie die untersc...

متن کامل

Werkzeugunterstützung für ETL-Prozesse mit Geodaten (Tool support for ETL processes with spatial data)

Data Warehousing and Spatial Data Infrastructures (SDI) are becoming more and more accepted in public administrations, also in environment administrations and geo data authorities. Hence, the importance of professional ETL (extract transform load) processes for data acquisition, integration, cleansing, and storage is also growing. Though there are numerous ETL tools on the market since many yea...

متن کامل

Datenintegration zwischen Standards in der Landwirtschaft auf Basis semantischer Technologien

Obwohl die Standardisierung von Datenformaten und Austauschmechanismen für Informationen im Agrarsektor und angrenzenden Bereichen inzwischen gute Fortschritte gemacht hat, ist nach wie vor eine mangelhafte Integration von Daten aus verschiedenen Quellen zu beobachten. Semantische Technologien können dabei helfen, diesen Missstand zu beheben indem sie Methoden bereitstellen, mit verschiedenen s...

متن کامل

Kundenschnittstelle zur Spezifikation kundenorientierter Leistungen im Internetvertrieb - Fachliche Anforderungen und informationstechnische Implikationen

Zusammenfassung: Der Vertrieb von Produkten und Dienstleistungen über das Internet bedingt u.a. die Fragestellung, wie eine entsprechende Kundenschnittstelle in der Informationsphase zur Spezifikation des Kundenwunsches zu gestalten ist. Diese Frage wird vor dem Hintergrund unterschiedlicher Klassen von kundenorientierten Produkten und Dienstleistungen aus Kundensicht diskutiert, indem fachlich...

متن کامل

KI in der Krise?

KI – ist sie in der Krise, im KI-Winter, oder, wie es Sebastian Thrun in der letzten Ausgabe der Zeitschrift KI formuliert hat, „hoch im Rennen“? Die Wahrnehmung unserer Teildisziplin der Informatik scheint so vielfältig zu sein wie ihre Ergebnisse: Natürliche Sprache ohne praktisch relevante Einschränkungen zu verstehen, ist immer noch unmöglich; jedoch sind KI-Systeme inzwischen so lernfähig ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2001